Learning 3D human pose prior is essential to human-centered AI. Here, we present GFPose, a versatile framework to model plausible 3D human poses for various applications. At the core of GFPose is a time-dependent score network, which estimates the gradient on each body joint and progressively denoises the perturbed 3D human pose to match a given task specification. During the denoising process, GFPose implicitly incorporates pose priors in gradients and unifies various discriminative and generative tasks in an elegant framework. Despite the simplicity, GFPose demonstrates great potential in several downstream tasks. Our experiments empirically show that 1) as a multi-hypothesis pose estimator, GFPose outperforms existing SOTAs by 20% on Human3.6M dataset. 2) as a single-hypothesis pose estimator, GFPose achieves comparable results to deterministic SOTAs, even with a vanilla backbone. 3) GFPose is able to produce diverse and realistic samples in pose denoising, completion and generation tasks. Project page https://sites.google.com/view/gfpose/
translated by 谷歌翻译
尽管单眼3D姿势估计似乎在公共数据集上取得了非常准确的结果,但它们的概括能力在很大程度上被忽略了。在这项工作中,我们对现有方法进行系统评估,并发现在对不同的摄像机,人体姿势和外观进行测试时,它们会出现更大的错误。为了解决这个问题,我们介绍了VirtualPose,这是一个两阶段的学习框架,以利用该任务特定的隐藏的“免费午餐”,即免费生成无限数量的姿势和摄像头,以免费培训模型。为此,第一阶段将图像转换为抽象的几何表示(AGR),然后第二阶段将它们映射到3D姿势。它从两个方面解决了概括问题:(1)可以在不同的2D数据集上对第一阶段进行培训,以降低过度合适外观的风险; (2)第二阶段可以接受从大量虚拟摄像机和姿势合成的不同AGR训练。它的表现优于SOTA方法,而无需使用任何配对的图像和3D姿势,从而为实用应用铺平了道路。代码可从https://github.com/wkom/virtualpose获得。
translated by 谷歌翻译
With an ever-growing number of parameters defining increasingly complex networks, Deep Learning has led to several breakthroughs surpassing human performance. As a result, data movement for these millions of model parameters causes a growing imbalance known as the memory wall. Neuromorphic computing is an emerging paradigm that confronts this imbalance by performing computations directly in analog memories. On the software side, the sequential Backpropagation algorithm prevents efficient parallelization and thus fast convergence. A novel method, Direct Feedback Alignment, resolves inherent layer dependencies by directly passing the error from the output to each layer. At the intersection of hardware/software co-design, there is a demand for developing algorithms that are tolerable to hardware nonidealities. Therefore, this work explores the interrelationship of implementing bio-plausible learning in-situ on neuromorphic hardware, emphasizing energy, area, and latency constraints. Using the benchmarking framework DNN+NeuroSim, we investigate the impact of hardware nonidealities and quantization on algorithm performance, as well as how network topologies and algorithm-level design choices can scale latency, energy and area consumption of a chip. To the best of our knowledge, this work is the first to compare the impact of different learning algorithms on Compute-In-Memory-based hardware and vice versa. The best results achieved for accuracy remain Backpropagation-based, notably when facing hardware imperfections. Direct Feedback Alignment, on the other hand, allows for significant speedup due to parallelization, reducing training time by a factor approaching N for N-layered networks.
translated by 谷歌翻译
密集的预测任务对于3D点云很常见,但是在大量点及其嵌入中的固有不确定性长期以来一直被忽略。在这项工作中,我们提出了CUE,这是一种用于3D点云密集预测任务的新型不确定性估计方法。受公制学习的启发,提示的关键思想是探索传统密集的预测管道上的交叉点嵌入。具体而言,CUE涉及建立概率嵌入模型,然后在嵌入空间中执行大量点的指标。我们证明CUE是在两个不同任务中对3D点云的密集不确定性估算的通用和有效的工具:(1)在3D几何特征学习中,我们首次获得了良好的密集不确定性,(2)在语义段中我们将不确定性的预期校准误差减少了43.8%。所有不确定性均可估算,而不会损害预测性能。
translated by 谷歌翻译
作为人类识别的重要生物标志物,可以通过被动传感器在没有主题合作的情况下以远距离收集人步态,这在预防犯罪,安全检测和其他人类识别应用中起着至关重要的作用。目前,大多数研究工作都是基于相机和计算机视觉技术来执行步态识别的。但是,在面对不良的照明时,基于视觉的方法并不可靠,导致性能降解。在本文中,我们提出了一种新型的多模式步态识别方法,即gaitfi,该方法利用WiFi信号和视频进行人类识别。在GAITFI中,收集了反映WiFi多路径传播的通道状态信息(CSI),以捕获人体步态,而视频则由相机捕获。为了了解强大的步态信息,我们建议使用轻量级残留卷积网络(LRCN)作为骨干网络,并通过集成WiFi和Vision功能来进一步提出两流性gaitfi,以进行步态检索任务。通过在不同级别的特征上的三胞胎损失和分类损失进行训练。广泛的实验是在现实世界中进行的,该实验表明,基于单个WiFi或摄像机的GAITFI优于最先进的步态识别方法,对于12个受试者的人类识别任务而达到94.2%。
translated by 谷歌翻译
长尾学习旨在应对在现实情况下严重的阶级失衡下统治训练程序的关键挑战。但是,很少有人注意如何量化表示空间中头等的优势严重性。在此激励的情况下,我们将基于余弦的分类器推广到von mises-fisher(VMF)混合模型,该模型被称为VMF分类器,该模型可以通过计算分布重叠系数来定量地测量超晶体空间上的表示质量。据我们所知,这是从分布重叠系数的角度来衡量分类器和特征的表示质量的第一项工作。最重要的是,我们制定了类间差异和类功能的一致性损失项,以减轻分类器的重量之间的干扰,并与分类器的权重相结合。此外,一种新型的训练后校准算法设计为零成本通过类间重叠系数来提高性能。我们的方法的表现优于先前的工作,并具有很大的利润,并在长尾图像分类,语义细分和实例分段任务上实现了最先进的性能(例如,我们在Imagenet-50中实现了55.0 \%的总体准确性LT)。我们的代码可在https://github.com/vipailab/vmf \_op上找到。
translated by 谷歌翻译
人类身份是对日常生活中许多应用的关键要求,例如个性化服务,自动监视,连续身份验证和大流行期间的接触跟踪等。这项工作研究了跨模式人类重新识别(REID)的问题,对跨摄像机允许区域(例如街道)和摄像头限制区域(例如办公室)的常规人类运动的反应。通过利用新出现的低成本RGB-D摄像机和MMWave雷达,我们提出了同时跨模式多人REID的首个视觉RF系统。首先,为了解决基本模式间差异,我们提出了一种基于人体观察到的镜面反射模型的新型签名合成算法。其次,引入了有效的跨模式深度度量学习模型,以应对在雷达和相机之间由非同步数据引起的干扰。通过在室内和室外环境中进行的广泛实验,我们证明了我们所提出的系统能够达到约92.5%的TOP-1准确性,而在56名志愿者中,〜97.5%的前5位精度。我们还表明,即使传感器的视野中存在多个主题,我们提出的系统也能够重新识别受试者。
translated by 谷歌翻译
近年来,WiFi传感一直在迅速发展。通过传播模型和深度学习方法的能力,实现了许多具有挑战性的应用,例如基于WiFi的人类活动识别和手势识别。但是,与深入学习视觉识别和自然语言处理相反,没有足够全面的公共基准。在本文中,我们强调了最新的深度学习进展,使WiFi传感能够感测,然后提出了一个基准SensenFI,以研究各种深度学习模型对WiFi传感的有效性。这些高级模型是根据独特的传感任务,WiFi平台,识别精度,模型大小,计算复杂性,功能可传递性以及无监督学习的适应性进行比较的。从CSI硬件平台到传感算法,它也被认为是基于深度学习的WiFi传感的教程。广泛的实验为我们提供了深层模型设计,学习策略技能和培训技术的经验。据我们所知,这是第一个带开源库的基准,用于WiFi传感研究中的深度学习。基准代码可在https://github.com/chenxinyan-sg/wifi-csi-sensing-benchmark上获得。
translated by 谷歌翻译
训练大型神经网络(NN)模型需要广泛的记忆资源,而激活压缩训练(ACT)是减少训练记忆足迹的一种有前途的方法。本文介绍了GACT,这是一个ACT框架,旨在支持具有有限域知识的通用NN体系结构的广泛机器学习任务。通过分析ACT近似梯度的线性化版本,我们证明了GACT的收敛性,而没有有关操作员类型或模型体系结构的先验知识。为了使训练保持稳定,我们提出了一种算法,该算法通过估计运行时对梯度的影响来决定每个张量的压缩比。我们将GACT实施为Pytorch库,很容易适用于任何NN体系结构。GACT将卷积NN,变压器和图形NNS的激活记忆降低到8.1倍,从而使4.2倍至24.7倍的训练能够较大,而精度损失可忽略不计。
translated by 谷歌翻译
本文介绍了一个多模式的室内轨道图数据集,Odombeyondvision,具有不同频谱的多个传感器,并使用不同的移动平台收集。Odombeyondvision不仅包含传统的导航传感器,例如IMUS,机械激光镜,RGBD摄像头,还包括几个新兴传感器,例如单芯片MMWave Radar,LWIR热相机和固态激光雷达。在无人机,UGV和手持式平台上的上述传感器中,我们分别记录了各种室内场景和不同照明条件的多模式探光数据及其运动轨迹。我们释放了示例雷达,雷达惯性和热惯性循环仪的实现,以证明其未来工作的结果,以对其进行比较和改进。包括工具包和文档在内的完整数据集可公开可用:https://github.com/maps-lab/odombeyondvision。
translated by 谷歌翻译